Skip to main content

Echelle connaissance IA

C'est quoi une IA comme Chat GPT, Gemini ou Claude ?

Un LLM (Large Language Model). Une IA avec qui on peut échanger en langage naturel.

C'est quoi un LLM ? et Comment ça fonctionne ?

Large Language Model (Grand Modèle de Langage)

Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé.

C'est un cerveau (ou modèle probabiliste) qui est entraîné sur une base de connaissances plus ou moins large qu'on peut superviser pour orienter l'entraînement dans un certain contexte.

En gros : À partir d'un ou d'une suite de mot(s) (ou de tokens), l'IA établit une analyse lexicale/statistique de la suite. Exemple : après "bonjour" on dit le plus souvent "ça va".

La supervision d'un entraînement permet de modifier ces statistiques pour correspondre au besoin voulu.

C'est quoi un token/jeton ?

C'est une unité lexicale qui est composée d'un ou plusieurs caractères, qui peuvent former un ou plusieurs mots.

Exemples pratiques :

  • "Bonjour" = 1 token
  • "Intelligence artificielle" = 2 tokens
  • "L'IA" = 2 tokens ("L'" + "IA")
  • "ChatGPT" = 2 tokens ("Chat" + "GPT")

Pourquoi c'est important ? Les LLM ont une limite de tokens appelée "fenêtre de contexte".

  • GPT-4o : 128 000 tokens
  • Claude 3.5 Sonnet : 200 000 tokens
  • Gemini 1.5 Pro : 2 000 000 tokens

En français : 1 token ≈ 0,75 mot

Y a quoi comme LLM connu ?

GPT-4.1 GPT-4o GPT-4o mini GPT-5 mini GPT-5 GPT-5 codex Claude 3.5 Sonnet Claude 3 Opus Claude 4 Sonnet Claude 4.5 Sonnet Gemini Pro Llama 3

Attention ChatGPT, Gemini, Claude... ne sont pas des LLMs ! Ce sont des applications/interfaces qui permettent d'interagir avec un LLM

C'est quoi une hallucination d'IA ?

Une hallucination, c'est quand l'IA invente des informations qui semblent plausibles mais qui sont fausses.

Pourquoi ça arrive ?

  • L'IA n'a pas accès à l'info demandée
  • Elle "remplit les trous" avec des suppositions
  • Elle mélange des infos de sources différentes

Exemple : Tu demandes "Qui a gagné la Coupe du Monde 2026 ?" et l'IA répond "La France" alors que le tournoi n'a pas encore eu lieu.

Comment limiter les hallucinations ?

  • Utiliser un RAG avec des sources fiables
  • Demander à l'IA de citer ses sources
  • Vérifier les infos importantes

C'est quoi la différence entre un LLM et un Agent IA ?

(question piège)

Un Agent est un logiciel/programme qui encapsule :

  1. Un LLM (obligatoire) : son cerveau
  2. Des outils (optionnel) : ces outils doivent être compris par le LLM pour être utilisés (API, MCP, BDD...)
  3. Une mémoire (optionnel) : RAG, BDD, Documents...

C'est quoi un prompt ?

Un prompt, c'est l'instruction que tu donnes à l'IA. C'est comme une recette de cuisine : plus c'est précis, meilleur est le résultat.

Types de prompts

Prompt simple : "Explique-moi l'IA" Prompt avec contexte : "Tu es professeur d'informatique. Explique l'IA à des débutants en 200 mots maximum" Prompt avec exemples : "Traduis en anglais. Exemple : Bonjour → Hello. Maintenant traduis : Au revoir"

Techniques de prompt

Chain of Thought : "Résous ce problème étape par étape" Role playing : "Tu es un expert en..." Few-shot : Donner des exemples avant la vraie question

C'est quoi un RAG ?

Retrieval Augmented Generation

C'est une base de connaissances/données qui a été optimisée pour être facilement comprise par une IA/LLM. Les infos sont regroupés par vecteurs sémantiques.

Un peu plus de détails

Étapes de création d'un RAG

  1. Ingestion & découpage On prend tes documents (PDF, pages web, notes) et on les découpe en petits morceaux de texte (chunks) de taille raisonnable (par ex. 300–800 mots) pour que le modèle puisse les digérer. On enlève le bruit (pieds de page, menus).

  2. Transformation en "empreintes" (embeddings) Chaque morceau est converti en une suite de nombres (un vecteur) qui capture son sens. Deux textes qui parlent de la même idée ont des vecteurs proches. C'est comme donner une coordonnée sémantique à chaque chunk.

  3. Index & recherche rapide On stocke ces vecteurs dans une base spécialisée (vector store). Quand l'utilisateur pose une question, on crée aussi son vecteur et on cherche les chunks dont les vecteurs sont les plus proches (top-k). C'est un "radar sémantique" qui repère les passages pertinents.

  4. Construction du contexte On assemble : (a) ta question, (b) les morceaux retrouvés, (c) éventuellement des instructions ("Réponds en français, cite les sources"). On fabrique un seul gros message (prompt) bien structuré.

  5. Génération de réponse Le LLM lit ce paquet, mélange la question avec les infos fournies, et rédige une réponse. Il n'apprend rien de nouveau ici : il exploite juste les documents remis sous le nez au bon moment. C'est comme un élève très rapide à qui tu ouvres les pages exactes du livre avant de poser la question.

Analogie ultra simple : Bibliothèque (documents) → Découpage en fiches → Chaque fiche reçoit une "empreinte numérique du sens" → Tu poses une question → On trouve les fiches proches → On les glisse sous les yeux du modèle → Il rédige la synthèse.

Pourquoi on fait ça plutôt que re-entraîner le modèle ?

Plus rapide : pas de coût de fine-tuning. Plus frais : tu peux ajouter ou supprimer un document immédiatement. Plus sûr : tu limites les hallucinations en "forçant" le modèle à s'appuyer sur ce que tu lui fournis. Limites à connaître (bonus) :

Si les chunks sont trop longs, tu gaspilles la fenêtre de contexte. Si trop courts, tu perds la cohérence. La qualité dépend beaucoup du découpage et de la pertinence de la recherche vectorielle. Le modèle peut toujours halluciner si les données sont ambiguës ou absentes.

(Piège) Du coup le LLM est entrainé sur un RAG ?

Non, un RAG est une extension de la connaissance du LLM.

Comment un Agent a-t-il accès à des outils ? Et quels outils peut-on connecter à un Agent ?

Via un connecteur spécifique (MCP est un type de connecteur).

N'importe lequel tant qu'on lui explique comment l'utiliser et que l'outil est adapté aux capacités d'intégration de l'IA.

Par exemple on peut lui donner une BDD mais le LLM doit être capable d'avoir accès à cette BDD.

MCP est une bonne réponse mais le MCP est une manière de connecter les outils à un LLM, ce n'est pas le seul !

Avant MCP, chaque nouvelle source de données ou application tierce nécessitait le développement d'un connecteur sur mesure, aboutissant à une prolifération d'intégrations spécifiques difficile à maintenir.

C'est quoi un MCP ?

Model Context Protocol

Le MCP est un protocole standard ouvert conçu pour connecter des LLMs à des outils

Exemples concrets de MCP

MCP Fichiers : Permet à l'IA de lire, écrire, créer des fichiers sur ton ordinateur MCP Web : Permet à l'IA de naviguer sur internet et récupérer des infos MCP Base de données : Permet à l'IA de faire des requêtes SQL MCP Calendrier : Permet à l'IA de consulter et modifier ton agenda MCP Git : Permet à l'IA de gérer tes dépôts de code

Comment ça marche ?

Un MCP expose des fonctions qui retourne un résultat compréhensible par un LLM.

Cette fonction est décrite en langage naturel. Le LLM ne sait pas comment marche cette fonction, il sait juste ce qu'elle fait et peut récupérer son résultat en lui fournissant des paramètres.

Prenons le MCP Météo qui expose la fonction quel_temps_fait_il. La description de cette fonction est : "Renvoie la météo. Si un lieu est donné, renvoie la météo du lieu. Si une date est donnée, renvoie la météo de la date".

Le LLM qui utilise le MCP Météo ne sait pas comment le MCP fonctionne.

Ici, le MCP va faire des appels API Météo France tout simplement.

C'est quoi UTCP ?

Universal Tool Calling Protocol

UTCP est un protocole standard ouvert conçu pour permettre aux agents IA d'appeler des outils directement en utilisant leurs protocoles natifs - sans avoir besoin de serveurs intermédiaires.

Quelle est la différence avec MCP ?

MCP : L'agent parle à un serveur MCP, qui parle à ton API Agent ↔ Serveur MCP ↔ Ton API

UTCP : L'agent parle directement à ton API
Agent ↔ Ton API

En gros, comment ça marche ?

Imagine que tu as une API météo. Avec UTCP :

  1. Tu décris ton API dans un "manuel" UTCP (comme un mode d'emploi)
  2. L'agent IA lit ce manuel et comprend comment utiliser ton API
  3. L'agent appelle directement ton API - pas besoin d'intermédiaire !

Pourquoi c'est intéressant ?

  • Plus rapide : pas d'intermédiaire = pas de latence supplémentaire
  • Plus sécurisé : utilise ton système d'authentification existant
  • Plus simple : tu ajoutes juste un endpoint à ton API existante pour exposer le manuel

Protocoles supportés

UTCP peut fonctionner avec :

  • HTTP (APIs REST classiques)
  • CLI (outils en ligne de commande)
  • MCP (pour la compatibilité)
  • GraphQL, gRPC, etc.

C'est comme si UTCP était un traducteur universel qui apprend aux agents IA comment parler à n'importe quel outil.

Concepts bonus à connaître

Fine-tuning

C'est comme donner des cours particuliers à un LLM sur un sujet spécifique. On l'entraîne avec des données spécialisées pour qu'il devienne expert dans un domaine.

Température

Un réglage qui contrôle la créativité de l'IA :

  • Température basse (0.1) : Réponses prévisibles et factuelles
  • Température haute (0.9) : Réponses créatives mais moins fiables

Multimodalité

Une IA multimodale peut traiter plusieurs types de données : texte, image, audio, vidéo. Exemples : GPT-4o peut analyser une image et la décrire, Claude peut lire des documents PDF avec images. C'est l'évolution vers des IA plus "humaines" qui comprennent le monde comme nous.

Contexte vs Mémoire

Le contexte, c'est ce que l'IA "voit" dans la conversation actuelle (limité par la fenêtre de contexte). La mémoire, c'est ce qu'elle peut "retenir" entre plusieurs conversations (via RAG ou base de données). Sans mémoire externe, l'IA "oublie" tout quand tu fermes la conversation.